15 de febrero de 2023

  • En 1962 se publicó “The Future of Data Analysis” (FoDA).
  • Se hablaba entonces de una nueva ciencia, una cuyo tema de interés es aprender de los datos.
John Tukey, autor de FoDA y uno de los estadísticos más importantes del siglo XX

John Tukey, autor de FoDA y uno de los estadísticos más importantes del siglo XX

Ciencia de los Datos (CD) vs. Estadística

  • “Data Science Initiative” (DSI) es un movimiento de la Universidad de Michigan anunciado en 2015 con un presupuesto de 100MDD.
  • Los estadísticos se sienten excluidos del “Data Science Movement”.
  • Para ellos, mucho de lo que representa CD no es nada nuevo.
  • Las definiciones tanto de DS como de la Estadística pueden ser en muchos casos intercambiables.

“Científico de datos” se refiere a un profesional que utiliza métodos científicos para liberar y crear significado a partir de datos sin procesar.

“Estadística” significa la práctica o la ciencia de recopilar y analizar datos numéricos en grandes cantidades.

  • Claramente hay muchas visiones de la CD y su relación con la estadística. A continuación se presentan algunos de estos temas recurrentes.

Big Data (BD)

  • BD no es algo exactamente nuevo. Por ejemplo: desde hace cientos de años se han ejecutado censos de población.
  • Los estadísticos siempre se han sentido cómodos con grandes conjuntos de datos como estos.
  • Dentro de la estadística se crearon herramientas para tratar con BD como lo son el “muestreo” y la “suficiencia”.
  • DS = BD no obtiene nada demasiado sustancial en las áreas involucradas.
Extracto del primer censo en EEUU en 1790

Extracto del primer censo en EEUU en 1790

Habilidades

  • CD se enfoca en BD, pero esta no puede ser acomodada en recursos computacionales normales.
  • Los cientificos de datos tienen las habilidades necesarias para lidiar con estos grandes conjuntos de datos.
  • Pero, ¿Son habilidades para resolver el problema real de inferencia?
  • En realidad se trata de habilidades para lidiar con artefactos como el computo distribuido a gran escala.
Hadoop y otras herramientas para cluster computing

Hadoop y otras herramientas para cluster computing

Empleos

  • Se ha creado una gran necesidad en el mercado labora por Científicos de Datos.
  • Pero, hay pocos puestos de CD reales para personas sin experiencia laboral.
  • El desarrollo de un buen científico de datos tomará dedicación y tiempo.
  • Los programas actuales de CD pueden no crear Científicos de datos preparados para todas las bases de datos, software y workflows que hay allá afuera.
Cantidad de posiciones CD entre 2010 y 2020

Cantidad de posiciones CD entre 2010 y 2020

¿Qué es real?

  • Los medios populares se han vuelto locos acerca de la CD.
  • Es comprensible ya que sí estamos presenciando algo nunca antes visto.
  • Lo cierto que si hay (y habrán) muchos datos allá afuera que esperan su procesamiento.
Principales blogs de tecnología

Principales blogs de tecnología

El Alcance completo de la Ciencia de los Datos

De acuerdo a Chambers el campo aspirante más amplio es Greater Data Science (GDS). Chambers y Cleveland dividen su tema ampliado en divisiones/temas/subcampos de actividad específicos.

Las actividades de Greater Data Science se clasifican en 6 divisiones:

  1. Data Exploration and Preparation
  2. Data Representation and Transformation
  3. Computing with Data
  4. Data Modeling
  5. Data Visualization and Presentation
  6. Science about Data Science

Las 6 divisiones

1. Exploración y preparación de los datos

  • Exploración. Desde que John Tukey acuñó el término “análisis exploratorio de datos” (AED),todos estamos de acuerdo en que todos los científicos de datos dedican mucho tiempo y esfuerzo a explorar los datos para comprobar sus propiedades más básicas y sacar a la luz características inesperadas. Esta labor detectivesca aporta información crucial a todas las iniciativas basadas en datos.

  • Preparación. Muchos conjuntos de datos contienen anomalías y artefactos.

  • Cualquier proyecto basado en datos requiere identificar y abordar cuidadosamente estos problemas. Las respuestas van desde el reformateo y la recodificación de los propios valores hasta preprocesamientos más ambiciosos, como la agrupación, el suavizado y el subconjunto. Hoy en día se habla a menudo de limpieza de datos.

2. Representacion y transformacion de los datos

Los científicos de datos desarrollan habilidades en dos áreas específicas:

  • Bases de datos modernas. El alcance de la representación de datos actual incluye todo, desde archivos de texto caseros y hojas de cálculo hasta bases de datos SQL y noSQL, bases de datos distribuidas y flujos de datos en directo. Los científicos de datos necesitan conocer las estructuras, las transformaciones y los algoritmos implicados en el uso de todas estas representaciones diferentes.
  • Representaciones matemáticas. Se trata de estructuras matemáticas interesantes y útiles para representar datos de tipos especiales, como datos acústicos, de imágenes, de sensores y de redes.

Por ejemplo, para obtener características con datos acústicos, a menudo se transforma al cepstrum o la transformada de Fourier; para datos de imágenes y sensores, la transformada wavelet o alguna otra transformada multiescala (por ejemplo, pirámides en aprendizaje profundo). Los científicos de datos desarrollan instalaciones con estas herramientas y maduran su criterio a la hora de utilizarlas.

DataBase

DataBase

3. Computación con datos

Todo científico de datos debe conocer y utilizar varios lenguajes para análisis y procesamiento de datos. Estos pueden incluir lenguajes populares como R y Python, pero también lenguajes específicos para transformar y manipular texto, y para gestionar complejos pipelines. No es extraño participar en proyectos ambiciosos utilizando media docena de lenguajes de forma conjunta. Más allá del conocimiento básico de los lenguajes, los científicos de datos necesitan estar al día de los nuevos modismos para utilizarlos de forma eficiente y deben comprender las cuestiones más profundas relacionadas con la eficiencia computacional.

R

R

Python

Python

4. Visualización y presentación de datos

  • La visualización de datos en un extremo se traslapa con el EDA (histogramas, gráficos de dispersión, gráficos de series temporales), pero en la práctica la práctica moderna puede llegar a extremos mucho más elaborados.
Visualization

Visualization

5. Modelación de datos

  • Modelización generativa: en la que se propone un modelo estocástico que podría haber generado los datos, y se derivan métodos para inferir propiedades del mecanismo generativo subyacente. A grandes rasgos, esto coincide con la estadística académica tradicional y sus derivaciones.
  • La modelización predictiva: en la que se construyen métodos que predicen bien sobre algún universo de datos dado, es decir, un conjunto de datos concreto muy específico. Esto coincide aproximadamente con el aprendizaje automático moderno y sus ramificaciones industriales.
Data Model

Data Model

6. Ciencia sobre ciencia de datos

Tukey propuso que existe una “ciencia del análisis de datos y debería ser reconocida como una de las más complicadas de todas las ciencias.

Abogó por estudio de lo que los analistas de datos “en la naturaleza” están haciendo realmente, y nos recordó que la verdadera eficacia de una herramienta está relacionada con la probabilidad de despliegue multiplicada por la probabilidad de éxito, la verdadera eficacia de una herramienta está relacionada con la probabilidad de despliegue multiplicada por la probabilidad de resultados efectivos una vez desplegada.

Data Science

Data Science

Discusión

  • Estas seis categorías de actividad, cuando se analizan en su totalidad, abarcan un campo mucho mayor de lo que enseñan o estudian actualmente los académicos.De hecho, una sola categoría - “GDS5: Data Modeling”- dominan la representación de la ciencia de datos en los departamentos académicos actuales.

  • La tensión entre el aprendizaje automático y la estadística académica se suprime en la clasificación anterior; gran parte de ella es irrelevante para lo que los científicos de datos hacen a diario.

  • Como se menciona más arriba los científicos de datos deben usar tanto modelos generativos como predictivos.

Los siguientes 50 años para la Ciencia de los Datos

Ciencia abierta

  • El propósito de la publicación científica es permitir la reproducibilidad de los resultados de la investigación.
  • Conforme se han hecho más complejas las técnicas de análsis de datos, la distancia entre lo que los investigadores hicieron y lo que ven los lectores se hace más grande.
  • La reproductividad de los experimentos computacionales es tán importante para la ciencia como para la CD.
Papers with Code

Papers with Code

Ciencia como datos

  • Los datos provenientes de publicaciones cientificas pueden ser dificiles de extraer y limpiar.
  • Los artículos que tienen Resultados Computacionales Verificables (VCR) contienen un resultado computacional y los metadatos acerca de ese resultado, pero asociado a un URL inmutable.
  • En un mundo donde todos cada publicación científica posee este estándar permitirá extraer facílmente los P-Values, gráficos y facilitará el fact-check del estudio.
  • Lo anterior puede revolucionar los siguientes dos tipos de estudios:
  1. Estudios cruzados con control compartido. Estudios masivos donde se van añadiendo nuevos data points.
  2. Estudios cruzados comparativos. Estudios replicables y su capacidad de compararlos.

Análisis Cientifico de los Datos

  • Cuando todos estos datos se encuentren disponibles, se abrirá la posibilidad de revisar empiricamente y de forma universal la efectividad de los metodos.
  • Este es un cambio de juego para la metodología estadística.
  • En los siguientes 50 años, los datos de muestra estarán disponibles para medir el rendimiento de los algoritmos en un conjunto completo de situaciones.
Más-o-Menos, una herramienta que análiza analisis en bioinformática

Más-o-Menos, una herramienta que análiza analisis en bioinformática

La Ciencia de los Datos en 2065

  • Esos enfoques mencionados anteriormente se convertirán en estándares, nuevamente debido al código y al intercambio de datos.
  • Aparecerán nuevos Frameworks para trabajar con la ciencia como un todo.
  • La investigación se moverá a un meta-nivel, donde las preguntas serán ¿Qué pasará si utilizamos este método en toda la ciencia?
  • Habrá un enfoque en las teorías que produzcan nuevas metodologías para su uso en el análisis de datos o Machine Learning.
Toda la ciencia

Toda la ciencia

Referencias

¡Gracias por su atención!